AI Challenger

更新时间:2024-01-03 11:06

“AI Challenger全球AI挑战赛”是由创新工场、搜狗和今日头条联合发起的AI科技竞赛,于2017年8月14日启动。

赛事介绍

“AI Challenger全球AI挑战赛”面向人工智能领域科研人才,致力于打造大型、全面的科研数据集与世界级竞赛平台。由创新工场、搜狗、今日头条联合创建,旨在从科研角度出发,满足学术界对高质量数据集的需求,推进人工智能在科研与商业领域的结合,促进世界范围内人工智能研发人员共同探索前沿领域的技术突破及应用创新。首届大赛于2017年8月14日面向全球正式发布。

数据集是人工智能领域科学研究、技术产品研发的核心基础之一,与算法同样重要。成规模、高质量的数据集建立需要专业的技术团队和较大的资金投入,并非易事,这对学术研究以及人工智能行业的发展是一个不小的制约。作为国内最大的非商业化竞赛平台,AI Challenger投入数千万启动基金,解决数据集缺失的问题,为人工智能科研提供数据及算法竞赛、人才交流平台,辅以强大的学术界和产业界专家指导,全力支持与帮助国内外的高校、研究机构、产业界的研发团队。AI Challenger以服务、培养人工智能高端人才为使命,共同打造良性可持续的人工智能科研新生态!

2017年是AI Challenger的诞生年,我们将公布百万量级的计算机视觉数据集、千万量级的机器翻译数据集,并主办多条细分赛道的AI竞赛。其中,计算机视觉数据集包含以人体动作分析为主的人体骨骼关键点数据集、图像中文描述数据集;机器翻译数据集包含以口语对话为主的英中机器翻译数据集,等等。首届“AI Challenger 全球AI挑战赛”将于9月4日正式拉开帷幕,各路高手展开为期三个月的比拼,并于12月中旬进行总决赛巅峰对决。获奖团队将分享合计超过200万人民币的奖金。

未来,“AI Challenger全球AI挑战赛”将持续投入,建设和发布更大规模的AI前沿领域高质量数据集,涵盖自动驾驶、智慧医疗智慧金融、机器人等行业应用中的核心AI需求,主办世界级的年度AI竞赛,吸引世界范围内的高端AI研发人才,促进人工智能科研生态的持续健康发展。

AI Challenger,科研大数据,智慧竞技场!

社会背景

数据、算法、计算能力是人工智能的三大基石,其中,数据更是人工智能科研的最宝贵资产。没有足够好的数据,就无法取得世界顶级的科研成果。在此方面,学术界和创业团队所能获得的数据资源通常远少于产业界中的顶级企业。因此,将高质量的数据集建设与科学研究、技术产品研发、人才培养有效结合,对人工智能发展具有重大意义,也是身为产业先驱应尽的一份社会责任。

“AI Challenger全球AI挑战赛”正是在这样的情况下应运而生,由创新工场、搜狗、今日头条共同发起,于2017年8月向全世界发布。AI Challenger将结合前沿的科研及学术关注点,在多个领域,建设并开放高质量数据集,同时举办世界级的人工智能算法竞赛,激发学术界、产业界对人工智能研发的积极性,推动人工智能生态的发展。

赛事委员会

竞赛主席

李开复:创新工场创始人兼CEO,人工智能工程院院长,IEEEFellow

王小川:搜狗CEO

张一鸣:今日头条创始人兼CEO

执行委员会

马维英:今日头条副总裁兼人工智能实验室主任,IEEE Fellow

王嘉平:创新工场人工智能工程院副院长

王砚峰:搜狗语音交互技术中心总经理

王咏刚:创新工场人工智能工程院副院长

杨洪涛:搜狗CTO

张宏江:今日头条顾问兼技术战略研究院院长,IEEE Fellow,ACM Fellow

计算机视觉指导委员会

刘世霞:清华大学副教授

马毅上海科技大学教授,IEEEFellow

孙剑旷视科技首席科学家

王亮:中科院自动化所研究员兼模式识别国家重点实验室副主任,国家杰青

王亦洲:北京大学长聘教授,国家杰青

机器翻译指导委员会

黄书剑:南京大学副教授

林德康:奇点机智联合创始人,原谷歌研究院高级管理科学家,ACL Fellow

刘洋:清华大学副教授,国家优秀青年基金得主

史晓东:厦门大学教授

赵铁军哈尔滨工业大学教授,中文信息学会常务理事

赛事说明

赛程安排

2017年9月4日-2017年9月24日:

开放训练数据集以及验证数据集,参赛选手可以自行下载数据,在本地进行算法设计、模型训练及评估。

2017年9月25日-2017年12月3日:

(1)开放测试数据集A集,参赛选手可自行下载数据,在本地使用先前训练的模型进行预测,生成预测结果并提交至平台。结果提交后,系统会按照评测指标实时反馈分数,并更新榜单排名。

(2)每队每周最多可提交2次(不同比赛提交次数会有调整)。

(3)榜单以所有参赛队伍的历史最优成绩进行排名。当有团队提交新的预测结果之后,榜单将实时更新。

周赛

从9月25日至11月20日期间,组委会将举办4次双周赛。10月9日将公布第一次双周赛排名前三的队伍,颁发奖金及证书。之后每两周公布一次排名前三的队伍名单,一共颁发四次双周奖。

测试数据集B集:

最终榜单公布前,公布测试数据集B集,具体开放时间待定。B集开放之后,成绩榜单将采用选手模型在测试数据集的B集上的预测结果表现,作为排名依据。

2017年12月3日:

预测结果提交截止。本次榜单决定场景分类竞赛年度的获奖队伍,其他竞赛将进入到下一轮的答辩环节。

2017年12月16日(暂定):

(1)人体骨骼关键点检测、图像中文描述、英中机器文本翻译、英中机器同声传译四个竞赛系统最后一次榜单成绩排名前五的队伍将在当天受邀来到现场进行答辩,特殊情况可以远程答辩,具体安排另行通知。

(2)参赛队伍应提前准备答辩材料,包括PPT、算法代码等。

(3)榜单成绩和答辩成绩的加权总成绩将决出这四个竞赛最终的大奖。同时,五个竞赛的冠亚季军及获得优胜奖的队伍将受邀来到现场参加颁奖典礼。

奖金设置

总奖金池超过200万元人民币。

竞赛说明

(一)计算机视觉赛道

1、人体骨骼关键点检测竞赛

赛题介绍

人体骨骼关节点对于描述人体姿态、预测人体行为至关重要,是诸多计算机视觉任务和人工智能应用的基础。本次竞赛邀请参赛者设计算法与模型,对自然图像中可见的人体骨骼关节点进行检测。

本次竞赛的研究成果可以被直接应用于动作分类和识别,动作捕捉,图像和视频内容理解,人机交互,自动驾驶(行人动作和意图识别),安防(异常行为检测),无人零售(消费者行为理解)等领域。

数据集特色

作为人物动作理解的基础数据集,此次发布的人体骨骼关键点数据集是目前规模最大,场景、人物动作及身体遮挡情况最复杂的数据集。此数据集标注了共30万张图片,包含了超过100种复杂生活场景内的实际人物动作与姿态,标注人物个数达到70万量级,远超过MSCOCO的10万人,以及MPII的4万人量级。该数据集将挑战现有主流算法的鲁棒性

2、图像中文描述竞赛

赛题介绍

图像中文描述问题融合了计算机视觉与自然语言处理两个方向,是用人工智能算法解决多模式、跨领域问题的典型代表。参赛者需要对给定的每一张测试图片输出一句话的描述。描述句子要求符合自然语言习惯,点明图像中的重要信息,涵盖主要人物、场景、动作等内容。此次发布的图像描述数据集以中文描述语句为主,与同类科研任务常见的英文数据集相比,中文描述通常在句法、词法上灵活度较大,算法实现的挑战也较大。

本次竞赛的研究成果可以被直接应用于图像与视频语义理解、图像与视频自动标注、图像与视频内容检索、人工智能辅助教育、机器人视觉、盲人辅助等人工智能相关领域。

数据集特色

图像中文描述数据集,是计算机视觉与自然语言处理两个学科的交叉结晶。该数据集是目前规模最大、场景和语言使用最丰富的图片中文描述数据集,使用了超过100种复杂生活场景的含有人物的图片,其场景复杂度、人物动作复杂度、身体遮挡情况都高于现有的其他数据集;而且,此数据集的语言描述标注更符合中文语言使用习惯。

相对于MSCOCO和Flickr8k-CN,在完整描述图片主体事件的基础之上,该数据集创新性的引入了形容词和中文成语,用以修饰图片中的主要人物及背景事件,大大提升了描述语句的丰富度。同时,本数据集的30万图片标注量将远远大于Flickr8k-CN(8000张图)。巨大的数据量和复杂的图片场景将直接挑战现有算法的可用性。

3、场景分类竞赛

赛题介绍

本次场景分类竞赛从400万张互联网图片上精选出10万张图片,分属于80个日常场景类别。每个场景类别包含大约1000张图片。要求参赛选手根据图片场景数据集建立算法,预测每张图片所属的场景类别。

(二)机器翻译赛道

数据集特色

本次公开的机器翻译的训练数据为英中方向的高质量、大规模的口语领域的数据。训练数据全部经过译员检查和矫正,句正确率在97%以上,英中双语句对对照工整、质量高、噪音低。现有中英机器翻译评测比赛采用有效数据从30万(例如,The International Workshop on Spoken LanguageTranslation)到900万(例如,ChineseWorkshop on MachineTranslation)不等。而此次采用的训练数据量达到1000万句对,是最大规模的口语领域英中比赛数据集。训练数据领域性强,面向口语领域。

1、 英中机器文本翻译竞赛

赛题介绍

英中机器翻译竞赛的目标是评测各家英中文本机器翻译的能力。本次文本机器翻译语言方向为英文到中文。参赛队伍需要根据评测方提供的数据,训练机器翻译系统,并且自由地选择机器翻译技术。例如,基于规则的翻译技术、基于实例的翻译技术、统计机器翻译及神经网络机器翻译技术等。

本次竞赛的研究成果可以被直接应用于机器翻译尤其是口语机器翻译等领域。

2、 英中机器同声传译竞赛

赛题介绍

本次英中机器竞赛主要任务为集中优化语音识别后处理和机器翻译模块,解决机器同声传译中的技术问题。语言翻译方向为英文到中文。

相对于传统的机器文本翻译系统,机器同声传译的输入文本,暨语音识别模块的输出信息具有无标点、无断句、文本口语化以及夹杂语气词等特点。这一系列特点将为基于书面风格的传统翻译系统带来极大干扰和挑战,因此选手首先需要设计多种策略,制作语音识别后处理模块,将语音识别后的文本,处理为可用于翻译的文本。随后,调用自己训练的机器翻译系统,将识别后处理的文本翻译成目标语言。评测方将提供数据用以训练机器翻译系统,选手可以自由地选择机器翻译技术。

本次竞赛的研究成果可以被直接应用于机器翻译特别是同声传译类应用。

免责声明
隐私政策
用户协议
目录 22
0{{catalogNumber[index]}}. {{item.title}}
{{item.title}}